辽宁石油化工大学学报
  期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
基于改进的TF-IDF文本特征词提取算法研究
贾 强, 冯锡炜, 王志峰, 朱 睿, 秦 航
辽宁石油化工大学学报    2017, 37 (4): 61-64.   DOI: 10.3969/j.issn.1672-6952.2017.04.014
摘要930)      PDF (1813KB)(256)    收藏
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。
相关文章 | 多维度评价